识别码|英豪_PythonSelenium.WebDriver对Cookies的处理及应用『模拟登录』

作者：心悦随鑫_196 | 来源：互联网 | 2023-09-16 19:50

篇首语：本文由编程笔记#小编为大家整理，主要介绍了PythonSelenium.WebDriver对Cookies的处理及应用『模拟登录』相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python Selenium.WebDriver 对COOKIEs的处理及应用『模拟登录』相关的知识，希望对你有一定的参考价值。

Python Selenium.WebDriver 对COOKIEs的处理及用途『模拟登录』

文章目录

Python Selenium.WebDriver 对COOKIEs的处理及用途『模拟登录』
- 一、COOKIE的介绍&＃x1f349;
- 二、COOKIE在浏览器中的形式结构
- 三、Selenium对COOKIE的操作&＃x1f957;
- 四、利用Selenium进行模拟登录并使用COOKIEs
- 五、获取的COOKIEs配合requests使用
- 六、获取的COOKIEs配合爬虫框架Scrapy使用&＃x1f4a6;「难点」
- 七、补充&＃x1f379;
- 参考资料&＃x1f49f;
- 相关博客&＃x1f60f;

一、COOKIE的介绍&＃x1f349;

COOKIE&＃xff08;复数形态&＃xff1a;COOKIEs&＃xff09;&＃xff0c;又称“小甜饼”&＃xff0c;为小型文本文件。某些网站为了辨别用户身份而储存在用户本地终端&＃xff08;Client Side&＃xff09;上的数据&＃xff08;通常经过加密&＃xff09;&＃xff0c;COOKIE保存在客户端中&＃xff0c;按在客户端中的存储位置&＃xff0c;可分为 内存COOKIE和硬盘COOKIE
内存 COOKIE 由浏览器维护&＃xff0c;浏览器关闭即消失&＃xff0c;存在时间短暂。硬盘COOKIE保存在硬盘里&＃xff0c;除非用户手动清理或到了过期时间&＃xff0c;硬盘COOKIE不会清除&＃xff0c;存在时间较长。所以&＃xff0c;按存在时间&＃xff0c;可分为非持久COOKIE和持久COOKIE

COOKIE的典型应用场景

网上购物&＃xff1a; 当用户选购第一项商品&＃xff0c;网站在向用户发送网页的时候&＃xff0c;还发送了一段COOKIE会记录着那项商品的信息&＃xff0c;当用户访问另一个网页时&＃xff0c;浏览器会把COOKIE发送给服务器&＃xff0c;这样服务器就能知道用户之前选购了什么&＃xff0c;用户继续选购商品&＃xff0c;服务器就会在原来那段COOKIE里追加新的商品信息。结账的时候&＃xff0c;服务器读取发送来的COOKIE即可。
网站账户登陆&＃xff1a; 网页登陆是大部分人都遇到过的&＃xff0c;网站往往会请求用户输入账户和密码以登陆网页&＃xff0c;在登陆之后下次再去浏览网页时&＃xff0c;网站会自动记住我们的密码&＃xff0c;不需要再去进行重复性的账号密码输入即可保持登陆状态&＃xff0c;或则用户可以勾选「下次自动登陆」。
这是在第一次登陆时&＃xff0c;服务器发送了包含登录凭据&＃xff08;用户名加密码的某种加密形式&＃xff09;的COOKIE到用户的硬盘上进行保存&＃xff0c;之后再登录时&＃xff0c;如果该COOKIE尚未到期&＃xff0c;浏览器会发送该COOKIE&＃xff0c;服务器验证凭据&＃xff0c;验证通过即可免去再登陆就可保持登陆状态

二、COOKIE在浏览器中的形式结构

COOKIE对于爬虫来说是比较常用到的&＃xff0c;一般随着爬虫请求发送&＃xff0c;是实现反反爬的参数之一

我使用的是 Edge 浏览器&＃xff0c;但 Chrome 浏览器其实也差不多一样。以百度首页为例&＃xff0c;打开调试工具&＃xff08;F12&＃xff09;&＃xff0c;点击Application&＃xff08;应用程序&＃xff09;&＃xff0c;选择 Storage 下的 COOKIEs 选项&＃xff0c;找到当前网页即可看到所有的 COOKIE
可以发现的是&＃xff0c;COOKIE在浏览器中是一条一条存在的&＃xff0c;每条COOKIE都是一个键值对的结构

三、Selenium对COOKIE的操作&＃x1f957;

Selenium 能够实现操作浏览器的COOKIE&＃xff0c;因为本身就是其调用浏览器运行&＃xff0c;能操作的内容有对COOKIE的读取、新增和删除

1)、读取COOKIE

读取COOKIE有两种方法&＃xff0c;分别是 driver.get_COOKIEs() 和 driver.get_COOKIE(name)
从方法名上来看一个带s一个不带s&＃xff0c;功能上看带s的是获取所有的COOKIE对象&＃xff0c;不带s的是获取指定的单条COOKIE

driver.get_COOKIEs() 能够获取所有的COOKIE&＃xff0c;并以列表形式返回所有COOKIE

演示代码&＃xff1a;&＃x1f447;

from selenium import webdriver browser &＃61; webdriver.Edge(executable_path&＃61;r"msedgedriver.exe") browser.get("https://www.baidu.com/") print(browser.get_COOKIEs())
[&＃39;domain&＃39;: &＃39;.baidu.com&＃39;, &＃39;expiry&＃39;: 1629821019, &＃39;httpOnly&＃39;: False, &＃39;name&＃39;: &＃39;BA_HECTOR&＃39;, &＃39;path&＃39;: &＃39;/&＃39;, &＃39;secure&＃39;: False, &＃39;value&＃39;: &＃39;8s818la521202160bp1gia2ic0r&＃39;, &＃39;domain&＃39;: &＃39;.baidu.com&＃39;, &＃39;httpOnly&＃39;: False, &＃39;name&＃39;: &＃39;H_PS_PSSID&＃39;, &＃39;path&＃39;: &＃39;/&＃39;, &＃39;secure&＃39;: False, &＃39;value&＃39;: &＃39;34437_34441_31254_33848_34072_34092_34106_26350_34416_34390&＃39;, &＃39;domain&＃39;: &＃39;.baidu.com&＃39;, &＃39;expiry&＃39;: 1661353419, &＃39;httpOnly&＃39;: False, &＃39;name&＃39;: &＃39;BAIDUID&＃39;, &＃39;path&＃39;: &＃39;/&＃39;, &＃39;secure&＃39;: False, &＃39;value&＃39;: &＃39;EDB65890D2F1E97267AD56A70D8F24E8:FG&＃61;1&＃39;, &＃39;domain&＃39;: &＃39;.baidu.com&＃39;, &＃39;expiry&＃39;: 3777301066, &＃39;httpOnly&＃39;: False, &＃39;name&＃39;: &＃39;BIDUPSID&＃39;, &＃39;path&＃39;: &＃39;/&＃39;, &＃39;secure&＃39;: False, &＃39;value&＃39;: &＃39;EDB65890D2F1E972DC3D6A6A8114E431&＃39;, &＃39;domain&＃39;: &＃39;.baidu.com&＃39;, &＃39;expiry&＃39;: 3777301066, &＃39;httpOnly&＃39;: False, &＃39;name&＃39;: &＃39;PSTM&＃39;, &＃39;path&＃39;: &＃39;/&＃39;, &＃39;secure&＃39;: False, &＃39;value&＃39;: &＃39;1629817419&＃39;, &＃39;domain&＃39;: &＃39;www.baidu.com&＃39;, &＃39;expiry&＃39;: 1630681419, &＃39;httpOnly&＃39;: False, &＃39;name&＃39;: &＃39;BD_UPN&＃39;, &＃39;path&＃39;: &＃39;/&＃39;, &＃39;secure&＃39;: False, &＃39;value&＃39;: &＃39;12314753&＃39;, &＃39;domain&＃39;: &＃39;www.baidu.com&＃39;, &＃39;httpOnly&＃39;: False, &＃39;name&＃39;: &＃39;BD_HOME&＃39;, &＃39;path&＃39;: &＃39;/&＃39;, &＃39;secure&＃39;: False, &＃39;value&＃39;: &＃39;1&＃39;]
driver.get_COOKIE(name) 根据名称获取单个COOKIE

源码&＃xff1a;
对于.get_COOKIE(name)方法&＃xff0c;咱们可以先去扩展一下去看源码&＃xff0c;无非就是先用.get_COOKIEs()方法获取所有的COOKIE&＃xff0c;再通过循环判断提取目标COOKIE

def get_COOKIE(self, name): """ Get a single COOKIE by name. Returns the COOKIE if found, None if not. :Usage: driver.get_COOKIE(&＃39;my_COOKIE&＃39;) """ if self.w3c: try: return self.execute(Command.GET_COOKIE, &＃39;name&＃39;: name)[&＃39;value&＃39;] except NoSuchCOOKIEException: return None else: COOKIEs &＃61; self.get_COOKIEs() for COOKIE in COOKIEs: if COOKIE[&＃39;name&＃39;] &＃61;&＃61; name: return COOKIE return None
演示代码&＃xff1a;&＃x1f447;

获取百度首页名为BD_HOME的COOKIE内容&＃xff0c;并将其输出

from selenium import webdriver browser &＃61; webdriver.Edge(executable_path&＃61;r"msedgedriver.exe") browser.get("https://www.baidu.com/") print(browser.get_COOKIE("BD_HOME"))
&＃39;domain&＃39;: &＃39;www.baidu.com&＃39;, &＃39;httpOnly&＃39;: False, &＃39;name&＃39;: &＃39;BD_HOME&＃39;, &＃39;path&＃39;: &＃39;/&＃39;, &＃39;secure&＃39;: False, &＃39;value&＃39;: &＃39;1&＃39;

2)、新增COOKIE

新增COOKIE只有一个方法&＃xff0c;那就是driver.add_COOKIE(COOKIE_dict)&＃xff0c;根据 二、COOKIE在浏览器中的形式结构 可以得知COOKIE是一个键值对数据&＃xff0c;传入的COOKIE对象中必须包含name和value两个属性&＃xff0c;缺少其中任何一个都会添加失败。除此之外还有四个可选属性&＃xff0c;分别为path&＃xff0c;domain&＃xff0c;secure&＃xff0c;expiry

源码&＃xff1a;
让咱们先来看看源码&＃xff0c;源码中就有对 属性值的描述注释&＃xff0c;还是值得去看的

def add_COOKIE(self, COOKIE_dict): """ Adds a COOKIE to your current session. :Args: - COOKIE_dict: A dictionary object, with required keys - "name" and "value"; optional keys - "path", "domain", "secure", "expiry" Usage: driver.add_COOKIE(&＃39;name&＃39; : &＃39;foo&＃39;, &＃39;value&＃39; : &＃39;bar&＃39;) driver.add_COOKIE(&＃39;name&＃39; : &＃39;foo&＃39;, &＃39;value&＃39; : &＃39;bar&＃39;, &＃39;path&＃39; : &＃39;/&＃39;) driver.add_COOKIE(&＃39;name&＃39; : &＃39;foo&＃39;, &＃39;value&＃39; : &＃39;bar&＃39;, &＃39;path&＃39; : &＃39;/&＃39;, &＃39;secure&＃39;:True) """ self.execute(Command.ADD_COOKIE, &＃39;COOKIE&＃39;: COOKIE_dict)

演示代码&＃xff1a;&＃x1f447;

向其百度首页添加一个名为 MyCOOKIE 的COOKIE&＃xff0c;其值为 this is my COOKIE!

from selenium import webdriver browser &＃61; webdriver.Edge(executable_path&＃61;r"msedgedriver.exe") browser.get("https://www.baidu.com/") browser.add_COOKIE("name": "MyCOOKIE", "value": "this is my COOKIE!")

在打开的浏览器窗口&＃xff0c;打开调试工具就能看到添加的COOKIE

3)、删除COOKIE

删除COOKIE与读取COOKIE类似&＃xff0c;也有两个方法&＃xff0c;分别是driver.delete_all_COOKIEs() 和 driver.delete_COOKIE(name)&＃xff0c;一个是全部删除&＃xff0c;一个是删除其中一个&＃xff0c;用法也于读取COOKIE一样

driver.delete_all_COOKIEs() 删除全部的COOKIE
演示代码&＃xff1a;&＃x1f447;

from selenium import webdriver browser &＃61; webdriver.Edge(executable_path&＃61;r"msedgedriver.exe") browser.get("https://www.baidu.com/") browser.delete_all_COOKIEs()
可以看到的是&＃xff0c;百度首页在浏览器中的COOKIE已经全部被清空了
driver.delete_COOKIE(name) 删除指定名称的COOKIE
演示代码&＃xff1a;&＃x1f447;

删除百度首页名为BD_HOME的COOKIE内容

from selenium import webdriver browser &＃61; webdriver.Edge(executable_path&＃61;r"msedgedriver.exe") browser.get("https://www.baidu.com/") browser.delete_COOKIE("BD_HOME")
可以看到名为BD_HOME的COOKIE已经在浏览器中找不到了

四、利用Selenium进行模拟登录并使用COOKIEs

在 爬虫领域 或 自动化测试中&＃xff0c;总有一些网站只有登录后才能访问&＃xff0c;或则某些数据只有在登录后才会出现。由于用户登陆后的身份信息通常会存放在COOKIE中&＃xff0c;因此可以将登录后的COOKIE保存&＃xff0c;再将此COOKIE添加到网页中来模拟已登录状态。能有效避免在登录页面中进行多次操作&＃xff0c;即一次登录后即可保留登录状态

实现的步骤很简单&＃xff0c;1. 只需要将当前页面中的COOKIE全部清空&＃xff0c;2. 然后直接添加 已经在登录状态下 或 拥有身份信息 的COOKIE在网页中&＃xff0c;3. 最后别忘记刷新一下网页driver.refresh&＃xff0c;就可以实现页面保留登录状态的效果

步骤示例&＃xff1a;&＃x1f447;

# 删除所有的COOKIEs driver.delete_all_COOKIEs() # 逐个添加COOKIE,可以使用循环 driver.add_COOKIE(COOKIE_dict) driver.add_COOKIE(COOKIE_dict) ... driver.refresh()

实际演示&＃xff1a;&＃x1f447;&＃x1f3fb;

还是以百度首页为例&＃xff0c;实现流程&＃xff1a;

先使用 Selenium.WebDriverWait 动作行为模拟网站登录
将登录后的COOKIEs获取并保存到本地(以Json格式)
下次打开网页使用COOKIE进行网页登录

需要注意的是&＃xff0c;此代码为简单的百度首页登录&＃xff0c;并未实现图片验证等自动验证功能&＃xff0c;更多为参考意义&＃xff0c;具体以实际为主

1)、让咱先来看看对百度首页的模拟登录

这里我使用的是Xpath定位 driver.find_element_by_xpath(xpath)&＃xff0c;当然也是可以使用其他的定位方式&＃xff0c;如ID定位driver.find_element_by_id(id_)

由于存在百度首页登录时会出现验证的情况&＃xff0c;代码并未对此进行自动验证处理&＃xff0c;这时候就需要手动验证了

def handle_login(username, pwd, isverify&＃61;False): """ 百度首页登录处理方法 :param username: 用户名 :param pwd: 用户密码 :param isverify: 是否存在网页验证 """ # 点击右上角登录按钮 self.find_by_xpath(r"//a[&＃64;id&＃61;&＃39;s-top-loginbtn&＃39;]").click() time.sleep(1) # 点击用户名登录按钮 self.find_by_xpath(r"//p[&＃64;id&＃61;&＃39;TANGRAM__PSP_11__footerULoginBtn&＃39;]").click() # 向输入框输入账户名 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__PSP_11__userName&＃39;]").send_keys(username) # 向输入框输入密码 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__PSP_11__password&＃39;]").send_keys(pwd) # 点击登录按钮 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__PSP_11__submit&＃39;]").click() # 手动图形验证等待 input("请手动进行图形验证,完毕后输入任意内容继续运行") if isverify: # 点击发送验证码按钮 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__29__button_send_mobile&＃39;]").click() # 等待用户输入手动验证码 vcode &＃61; input("请输入六位数验证码&＃xff1a;") self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__29__input_vcode&＃39;]").send_keys(vcode) # 点击确定按钮 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__29__button_submit&＃39;]").click()

2)、COOKIEs处理

需要可持久化存储COOKIE&＃xff0c;以及对COOKIE进行读取并判断是否存在
简单写两个函数

def save_COOKIEs(data, encoding&＃61;"utf-8"): """ 百度首页COOKIEs保存方法 :param data: 所保存数据 :param encoding: 文件编码,默认utf-8 """ with open(self.f_path, "w", encoding&＃61;encoding) as f_w: json.dump(data, f_w) def load_COOKIEs(encoding&＃61;"utf-8"): """ 百度首页COOKIEs读取方法 :param encoding: 文件编码,默认utf-8 """ if os.path.isfile(self.f_path): with open(self.f_path, "r", encoding&＃61;encoding) as f_r: user_status &＃61; json.load(f_r) return user_status

3)、使用COOKIE进行网页登录

根据刚开始的步骤示例&＃xff0c;修改网页中的COOKIEs是很简单的
先将网页中原有的COOKIEs全部删除&＃xff0c;然后通过循环一个个将保存的登录COOKIE全部添加进网页

def COOKIEs_login(COOKIEs: list): """ 百度首页COOKIEs登录方法 :param COOKIEs: 网页所需要添加的COOKIE """ self.browser.delete_all_COOKIEs() for c in COOKIEs: self.browser.add_COOKIE(c) self.browser.refresh()

4)、将上述流程总结写成一个对象

import os import json import time from selenium import webdriver class BaiduLogin: def __init__(self, url, executable_path, f_path): """ 对象初始化 :param url: 百度首页地址 :param executable_path: 浏览器驱动路径 :param f_path: COOKIEs文件保存路径 """ self.url &＃61; url self.browser &＃61; self.start_browser(executable_path) self.f_path &＃61; f_path &＃64;staticmethod def start_browser(executable_path): return webdriver.Edge(executable_path&＃61;executable_path) def start_url(self): self.browser.get(self.url) def find_by_xpath(self, xpath): return self.browser.find_element_by_xpath(xpath) def baidu_login(self, *args): self.start_url() if COOKIEs :&＃61; self.load_COOKIEs(): self.__COOKIEs_login(COOKIEs) else: self.__handle_login(*args, **kwargs) def __handle_login(self, username, pwd, isverify&＃61;False): """ 百度首页登录处理方法 :param username: 用户名 :param pwd: 用户密码 :param isverify: 是否存在网页验证 """ # 点击右上角登录按钮 self.find_by_xpath(r"//a[&＃64;id&＃61;&＃39;s-top-loginbtn&＃39;]").click() time.sleep(1) # 点击用户名登录按钮 self.find_by_xpath(r"//p[&＃64;id&＃61;&＃39;TANGRAM__PSP_11__footerULoginBtn&＃39;]").click() # 向输入框输入账户名 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__PSP_11__userName&＃39;]").send_keys(username) # 向输入框输入密码 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__PSP_11__password&＃39;]").send_keys(pwd) # 点击登录按钮 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__PSP_11__submit&＃39;]").click() # 手动图形验证等待 input("请手动进行图形验证,完毕后输入任意内容继续运行") if isverify: time.sleep(1) # 点击发送验证码按钮 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__29__button_send_mobile&＃39;]").click() # 等待用户输入手动验证码 vcode &＃61; input("请输入六位数验证码&＃xff1a;") self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__29__input_vcode&＃39;]").send_keys(vcode) # 点击确定按钮 self.find_by_xpath(r"//input[&＃64;id&＃61;&＃39;TANGRAM__29__button_submit&＃39;]").click() self.save_COOKIEs(self.browser.get_COOKIEs()) def __COOKIEs_login(self, COOKIEs: list): """ 百度首页COOKIEs登录方法 :param COOKIEs: 网页所需要添加的COOKIE """ self.browser.delete_all_COOKIEs() for c in COOKIEs: self.browser.add_COOKIE(c) self.browser.refresh() def save_COOKIEs(self, data, encoding&＃61;"utf-8"): """ 百度首页COOKIEs保存方法 :param data: 所保存数据 :param encoding: 文件编码,默认utf-8 """ with open(self.f_path, "w", encoding&＃61;encoding) as f_w: json.dump(data, f_w) def load_COOKIEs(self, encoding&＃61;"utf-8"): """ 百度首页COOKIEs读取方法 :param encoding: 文件编码,默认utf-8 """ if os.path.isfile(self.f_path): with open(self.f_path, "r", encoding&＃61;encoding) as f_r: user_status &＃61; json.load(f_r) return user_status def quit(self): # 关闭浏览器 self.browser.quit()

调用&＃xff1a;&＃x1f447;

target_driver &＃61; "msedgedriver.exe" url, COOKIE_fname &＃61; r"https://www.baidu.com/", "百度登录COOKIEs.json" login &＃61; BaiduLogin(url, target_driver, COOKIE_fname) login.baidu_login("用户名", "用户密码")

五、获取的COOKIEs配合requests使用

在使用requests请求之前&＃xff0c;我们得先知道对于requests来说是怎么使用COOKIE

以百度首页为例&＃xff0c;打开调试工具&＃xff08;F12&＃xff09;&＃xff0c;点击Network&＃xff08;网络\\抓包工具&＃xff09;&＃xff0c;如果空白的话就按Ctrl &＃43; R 快捷键刷新网页读取&＃xff0c;找到位于第一个的请求www.baidu.com&＃xff0c;选择Headers&＃xff08;标头&＃xff09;后在下方就能看到咱们对于https://www.baidu.com/这个链接的Request Headers&＃xff08;请求头&＃xff09;&＃xff0c;在里面就能找到COOKIE属性

但信心的朋友会发现在这里的COOKIE格式与我们在Application&＃xff08;应用程序&＃xff09;&＃xff0c;选择 Storage 下的 COOKIEs 选项看到的完全不一样&＃xff0c;但其实都是同一些COOKIEs数据&＃xff0c;将两者放在一起进行仔细比较还是能发现共同点的

对于请求头来说&＃xff0c;需要的只有name和value&＃xff0c;这也是为什么在 三、Selenium对COOKIE的操作新增COOKIE中讲到传入的COOKIE对象中必须包含name和value两个属性&＃xff0c;两者以&＃61;号拼接&＃xff0c;每一个COOKIE以;进行分割

图 5.1

图 5.2

在
四、利用Selenium进行模拟登录并使用COOKIEs 中&＃xff0c;我们使用了 Selenium 将COOKIE 获取并将其了可持久化存储成文件&＃xff0c;那么只需要对之前的代码进行一些修改&＃xff0c;或则直接拿存储的COOKIE数据来使用就能让获取的COOKIEs配合requests使用

在requests来说&＃xff0c;使用COOKIE常用的有两种方式&＃xff1a;

通过请求头方式直接将COOKIEs给传入
在 requests.get 或 requests.post 方法中传入COOKIEs参数

为了便于演示&＃xff0c;会将requests返回的页面源码保存到html文件中进行展示

1)、通过请求头方式

在使用请求头方式时&＃xff0c;想要事先将COOKIEs处理成与 图 5.1 中那样的格式&＃xff0c;通过循环就能搞定&＃xff0c;这没什么难度

预处理COOKIEs格式&＃xff1a;

def COOKIE_handle(COOKIEs: list): """ COOKIEs 标头格式化处理函数 :param COOKIEs: selenium获取的COOKIEs """ COOKIEs &＃61; [f"i[&＃39;name&＃39;]&＃61;i[&＃39;value&＃39;]" for i in COOKIEs] return "; ".join(COOKIEs)

使用requests发送请求&＃xff1a;

import os import json import requests def COOKIEs_load(path, encoding&＃61;"utf-8"): if os.path.isfile(path): with open(path, "r", encoding&＃61;encoding) as f_r: COOKIEs &＃61; json.load(f_r) return COOKIEs def COOKIE_handle(COOKIEs: list): """ COOKIEs 标头格式化处理函数 :param COOKIEs: selenium获取的COOKIEs """ COOKIEs &＃61; [f"i[&＃39;name&＃39;]&＃61;i[&＃39;value&＃39;]" for i in COOKIEs] return "; ".join(COOKIEs) def get_and_save(url, path, encoding&＃61;"utf-8", **kwargs): """ 使用requests对网址发送请求,并将请求结果存储 :param url: 网址 :param path: 存储文件路径 :param encoding: 文件编码,默认utf-8 """ response &＃61; requests.get(url, **kwargs) if response.ok: response.encoding &＃61; encoding with open(path, "w", encoding&＃61;encoding) as f_w: f_w.write(response.text) url &＃61; r"https://www.baidu.com/" headers &＃61; "User-Agent": (r"请使用自己的" r"UA识别码"), "COOKIE": COOKIE_handle(COOKIEs_load("百度登录COOKIEs.json")) get_and_save(url, "baidu.html", headers&＃61;headers)

2)、使用COOKIEs参数

值得注意的是&＃xff0c;传入的COOKIEs是一个字典&＃xff0c;那么就需要对已有的COOKIEs数据进行处理&＃xff0c;将其转化成requests能够识别的字典数据类型

预处理COOKIEs格式&＃xff1a;

def COOKIE_handle(COOKIEs: list): """ COOKIEs 转化为字典函数 :param COOKIEs: selenium获取的COOKIEs """ dic &＃61; for i in COOKIEs: dic[i["name"]] &＃61; i["value"] return dic

使用requests发送请求&＃xff1a;

import os import json import requests def COOKIEs_load(path, encoding&＃61;"utf-8"): if os.path.isfile(path): with open(path, "r", encoding&＃61;encoding) as f_r: COOKIEs &＃61; json.load(f_r) return COOKIEs def COOKIE_handle(COOKIEs: list): """ COOKIEs 转化为字典函数 :param COOKIEs: selenium获取的COOKIEs """ dic &＃61; for i in COOKIEs: dic[i["name"]] &＃61; i["value"] return dic def get_and_save(url, path, encoding&＃61;"utf-8", **kwargs): """ 使用requests对网址发送请求,并将请求结果存储 :param url: 网址 :param path: 存储文件路径 :param encoding: 文件编码,默认utf-8 """ response &＃61; requests.get(url, **kwargs) if response.ok: response.encoding &＃61; encoding with open(path, "w", encoding&＃61;encoding) as f_w: f_w.write(response.text var cpro_id = "u6885494";




    
        
                        android
                        python
                        web
                        cookies
                        编程
                        cookie
                        request
                        爬虫
                        文件
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        ip
                        Cookie学习小结
                    

                    
                                                
                            
                        
                                                
                        Cookie学习小结 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-14 16:26:25
                    

                

                
                                
                    
                        main
                        使用Tkinter构建51Ape无损音乐爬虫UI
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-15 10:31:11
                    

                

                                
                    
                    
                
                
                                
                    
                        ip
                        Go语言中正则表达式的简易应用
                    

                    
                                                
                        本文介绍了Go语言中正则表达式的基本使用方法，并提供了一些实用的示例代码。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-14 20:27:47
                    

                

                
                                
                    
                        main
                        Native与HTML5交互基础教程
                    

                    
                                                
                        本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-14 12:33:11
                    

                

                
                                
                    
                        ip
                        深入解析HTML5字符集属性：charset与defaultCharset
                    

                    
                                                
                            
                        
                                                
                        本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 11:09:46
                    

                

                
                                
                    
                        ip
                        Python 数据可视化实战指南
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-13 06:03:30
                    

                

                
                                
                    
                        ip
                        深入解析浏览器内核与版本的发展历程
                    

                    
                                                
                        浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 13:34:37
                    

                

                
                                
                    
                        input
                        DVWA学习笔记系列：深入理解CSRF攻击机制
                    

                    
                                                
                            
                        
                                                
                        DVWA学习笔记系列：深入理解CSRF攻击机制 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 13:19:51
                    

                

                
                                
                    
                        input
                        Webdriver中元素定位的多种技术与策略
                    

                    
                                                
                            
                        
                                                
                        在Webdriver中，元素定位是自动化测试的关键环节。本文详细介绍了8种常用的元素定位技术与策略，包括ID、名称、标签名、类名、链接文本、部分链接文本、XPath和CSS选择器。每种方法都有其独特的优势和适用场景，通过合理选择和组合使用，可以显著提高测试脚本的稳定性和效率。此外，文章还探讨了在复杂页面结构中如何灵活运用这些定位技术，以应对各种挑战。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 11:34:38
                    

                

                
                                
                    
                        ip
                        如何在PHP中准确获取服务器IP地址？
                    

                    
                                                
                            
                        
                                                
                        如何在PHP中准确获取服务器IP地址？ ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-10 15:17:16
                    

                

                
                                
                    
                        ip
                        全面解析JavaScript代码注释技巧与标准规范
                    

                    
                                                
                            
                        
                                                
                        在Web前端开发中，JavaScript代码的可读性和维护性至关重要。本文将详细介绍如何有效地使用注释来提高代码的可读性，并探讨JavaScript代码注释的最佳实践和标准规范。通过合理的注释，开发者可以更好地理解和维护复杂的代码逻辑，提升团队协作效率。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-10 15:16:18
                    

                

                
                                
                    
                        ip
                        帝国CMS中的信息归档功能详解及其重要性
                    

                    
                                                
                            
                        
                                                
                        本文详细解析了帝国CMS中的信息归档功能，并探讨了其在内容管理中的重要性。通过归档功能，用户可以有效地管理和组织大量内容，提高网站的运行效率和用户体验。此外，文章还介绍了如何利用该功能进行数据备份和恢复，确保网站数据的安全性和完整性。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-09 20:42:14
                    

                

                
                                
                    
                        web
                        周排行与月排行榜开发总结
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了如何在PHP中实现周排行和月排行榜的开发，包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-14 19:14:58
                    

                

                
                                
                    
                        input
                        深入解析Android Audio系统中的mpAudioPolicy->get_input
                    

                    
                                                
                        在分析Android的Audio系统时，我们对mpAudioPolicy->get_input进行了详细探讨，发现其背后涉及的机制相当复杂。本文将详细介绍这一过程及其背后的实现细节。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-12 18:52:04
                    

                

                
                                
                    
                        input
                        Unity与MySQL连接过程中出现的新挑战及解决方案探析
                    

                    
                                                
                        Unity与MySQL连接过程中出现的新挑战及解决方案探析 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-11-11 09:55:19

















    

    
        
            
            
                
                
            

            
                心悦随鑫_196            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    hashset
                
                                
                    filter
                
                                
                    utf-8
                
                                
                    require
                
                                
                    web3
                
                                
                    case
                
                                
                    list
                
                                
                    expression
                
                                
                    callback
                
                                
                    rsa
                
                                
                    python
                
                                
                    version
                
                                
                    web
                
                                
                    foreach
                
                                
                    node.js
                
                                
                    shell
                
                                
                    replace
                
                                
                    netty
                
                                
                    header
                
                                
                    php5
                
                                
                    httpclient
                
                                
                    chat
                
                                
                    export
                
                                
                    ip
                
                                
                    main
                
                                
                    ascii
                
                                
                    input
                
                                
                    vbscript
                
                                
                    perl
                
                                
                    datetime
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1c调用python环境_linux 下C调用Python 模块
                
                                
                    2[667]python时间处理模块dateutil
                
                                
                    3IO出错常用错误代码
                
                                
                    4jpa 不设置别名_使用JPA实现DDD持久化O/R映射元数据特殊属性映射：ID、Version和Transient...
                
                                
                    5JavaWeb之实现文件上传与下载
                
                                
                    6P4513 小白逛公园
                
                                
                    7项目篇--win10卸载C:\Windows\assembly下的程序集
                
                                
                    8jieba分词02
                
                                
                    9Python中的文件与异常
                
                                
                    10Redis主从模式和哨兵模式_gw
                
                                
                    11亲和数、相亲数
                
                                
                    12序列和集合算法之序列比较
                
                                
                    135.虚拟内存的概念、特征以及虚拟内存的实现
                
                                
                    14Java项目：SSM电子书网站管理系统
                
                                
                    15怎样从cmd运行java,怎么用cmd运行